Сборный проект 2: Анализ воронки продаж стартапа по продаже продуктов питания



Оглавление

1 Описание проекта
2 Загрузка и предобработка данных
3 Исследовательский анализ данных
4 Анализ воронки событий
5 Анализ результатов А/А - теста
5.1 Группа 246
5.2 Группа 247
5.3 Z-тест
5.4 Популярное событие
5.5 Анализ А/В - тестов
5.5.1 Анализ 246/248
5.5.2 Анализ 247/248
5.5.3 Анализ 246/248
5.3 Тесты с поправкой Бонферрони
5.3.1 Анализ 246/247
5.3.2 Анализ 246/248 5.3.3 Анализ 247/248
5.3.4 Анализ 246+247/248
6 Вывод


Описание проекта

Вы работаете в стартапе, который продаёт продукты питания. Нужно разобраться, как ведут себя пользователи вашего мобильного приложения.

Цель исследования:

Описание данных:
EventName — название события;
DeviceIDHash — уникальный идентификатор пользователя;
EventTimestamp — время события;
ExpId — номер эксперимента:


Загрузка и предобработка данных

В датасете 244126 записей, 4 колонки. Имена колонок необходимо привести к "хоршему стилю". Пропусков данных нет. Тип данных в колонке EventTimestamp не соответствуют содержанию колонок - изменим его на date. В датесете есть дубликаты - удалим их.

Вывод Мы очистили данные - удалили дубликаты, привели дату и время к типу данных date, добавили колонку с датой без времени, привели названия колонок к правилам хорошего стиля и переименовали колонку DeviceIDHash на user_id - так как колонка хоть и хранит иждентификаторы устройств, это данные о пользователях.


Исследовательский анализ данных

Среднее число дейстий на одного пользователя - 32.3, медианное - 20. Максимальное значений - 2307 десйтивия, это аномалия. Но, мы не можем точно сказать что все эти дейстиявям пользователя выбросы.

Вывод В нашем распоряжении данные с 2019-07-25 по 2019-08-07. Но, эспотенциальный рост наблюдается начиная с 1 августа 2019 года. Возможно данные до 1 августа - тест системы А/В - тестирования.

Вывод Отбросив данные до 1 августа 2019 года мы получили более ясную картину: пик суточной активности пользователей наступает примерно в середине дня и так на всего наблюдаемго периода - до 7 августа 2019 года.

Вывод Группа 246 самая маленькая (2484 человека), посмотрим на сколько другие группы больше ней, и поймём критично ли это различие.

Вывод Группа 247 больше группы 246 на 1.17%, группа 248 больше 247-й на 0.96%, группа 248 на 2.13% больше 246-й.На мой взгляд, данные различи в группах не досточно существенны, чтобы признать тест несостоятельным.

Выводы:

  1. Было установлено, что данные до 1 августа - неполные и малоинформативные. Данные до 1.08.2019 были удалены. Полученные данне охватывают период с 1 по 7 августа 2019 года;
  2. Очищенные данные показали ярковыраженную суточную динамику активности прользователей;
  3. Очищенный журнал событий содержит данные о 243713 событиях и 7534 уникальных пользователях;
  4. Пользователи распределены по группам более-менее равномерно;
  5. В среднем на одного униального приходится на пользователя 32 события;
  6. В очищеннх данных есть пользователи их всех трёх групп, пользователей попавших в несколько групп одновременно - нет.

Анализ воронки событий

Описание событий:

Вывод доля пользователй посмотревших:

Правильный порядок совершений действия пользователями:

По воронке событий посчитаем, какая доля пользователей проходит на следующий шаг воронки.
Уберем из датафрейма Tutorial - его открывают не так часто, и он неукладывается в воронку.

Выводы:

  1. Больше всего пользователей видят главный экран, меньщше всего - переходят в руковдство.
  2. Больше всего пользователей теряется на шаге перехода в каталог с товарами.
  3. До оплаты доходят только 47.7% первоначальных пользователей.

Анализ результатов А/А - теста

Проверим, находят ли статистические критерии разницу между выборками 246 и 247.
Для этого построим воронку для каждой тестовой группы и сравним шаги этих воронок - доли пользователей на каждом из шагов - с помощью z-теста.

Группа 246

Группа 247

Вывод На первый взгляд распеределение пользователей по шагам воронки в группах 246 и 247 одинакове, но проверим это z-тестом.

Z-тест

Сформулируем гипотезы:

Напишем функцию, которая будет принимать значения 246 (группа А) и 247 (группа А1) групп, а выдавать статистическую разницу по ним по каждому событию.

Вывод Статистически значимой разницы между долями пользователей на каждом из шагов воронки в группах 246 и 247 - нет.

Популярное событие

Вывод Самое популярное событие MainScreenAppear - показ главного экрана

Анализ А/В - тестов

Анализ 246/248

Вывод Статистически значимой разницы между долями пользователей на каждом из шагов воронки в группах 246 и 248 - нет.

Анализ 247/248

Вывод Статистически значимой разницы между долями пользователей на каждом из шагов воронки в группах 247 и 248 - нет.

Анализ 246+247/248

Вывод Статистически значимой разницы между долями пользователей на каждом из шагов воронки в объеденённой группе 246+247 и группе 248 - нет.

Выводы:

  1. Мы провели 16 проверок теста.
  2. Уровень значимости выбран = 5% . На наш взгляд это достаточный уровень значимости.

Поскольку мы проводим множественный А/А/В - тест, применим применим поправку Бонферрони и проверим гипотезы с ней. Гипотезы остануться прежними.

Тесты с поправкой Бонферрони

Анализ 246/247

Анализ 246/248

Анализ 247/248

Анализ 246+247/248

Вывод С поправкой Бонферрони результат остаётся прежним - статистически значимой разницы между долями пользователей на каждом из шагов воронки в контрольных группах 246 и 247 и эксперементальной группе 248 - нет.


Вывод

Анализ данных показал:

  1. Что данные до 1 августа - неполные и малоинформативные. Данные до 1.08.2019 были удалены. Полученные данные охватывают период с 1 по 7 августа 2019 года.
  2. Очищенные данные показали ярко выраженную суточную динамику активности пользователей.
  3. Пользователи распределены по группам более-менее равномерно.
  4. В среднем на одного уникального приходится на пользователя 32 события.
  5. В очищенных данных есть пользователи их всех трёх групп, пользователей, попавших в несколько групп одновременно - нет.

Анализ воронки показал, что:

  1. Больше всего пользователей видят главный экран, меньше всего - переходят в руководство.
  2. Больше всего пользователей теряется на шаге перехода в каталог с товарами – это узкая точка в и этот шаг нужно дорабатывать, в том числе проведя дополнительные исследования и поняв почему отваливаются пользователи (методы: UX/UI, CastDev, тепловые карты кликов).
  3. До оплаты доходят только 48% первоначальных пользователей – неплохой результат, но, если бы на шаге перехода в каталог с товарами отваливалось бы меньше пользователей – мог бы быть лучше.
  4. Самое популярное событие MainScreenAppear - показ главного экрана.

Анализ результатов А/А/В – тестов

  1. Для анализа мы использовали функцию, проверяющую статистическую разницу между всеми выборками и суммарно провели 16 проверок статистических гипотез.
  2. Результаты показали, что нет статистически значимой разницы между исследуемых группами.
  3. Аналогичный результат был достигнут при применении поправки Бонферрони – ведь у нас множественный А/А/В – тест.
    Выводы:
  4. Результат говорит о том, что оттока пользователей не случилось – тесты проведены успешно.
  5. Изменение шрифта существенным образом не повлияло на поведение пользователей и, если дизайнеры считают это изменение необходимым, они могут его осуществить - выкатить фичу в продакшен.